With the increase in health consciousness, noninvasive body monitoring has aroused interest among researchers. As one of the most important pieces of physiological information, researchers have remotely estimated the heart rate (HR) from facial videos in recent years. Although progress has been made over the past few years, there are still some limitations, like the processing time increasing with accuracy and the lack of comprehensive and challenging datasets for use and comparison. Recently, it was shown that HR information can be extracted from facial videos by spatial decomposition and temporal filtering. Inspired by this, a new framework is introduced in this paper to remotely estimate the HR under realistic conditions by combining spatial and temporal filtering and a convolutional neural network. Our proposed approach shows better performance compared with the benchmark on the MMSE-HR dataset in terms of both the average HR estimation and short-time HR estimation. High consistency in short-time HR estimation is observed between our method and the ground truth.
translated by 谷歌翻译
The role of mobile cameras increased dramatically over the past few years, leading to more and more research in automatic image quality enhancement and RAW photo processing. In this Mobile AI challenge, the target was to develop an efficient end-to-end AI-based image signal processing (ISP) pipeline replacing the standard mobile ISPs that can run on modern smartphone GPUs using TensorFlow Lite. The participants were provided with a large-scale Fujifilm UltraISP dataset consisting of thousands of paired photos captured with a normal mobile camera sensor and a professional 102MP medium-format FujiFilm GFX100 camera. The runtime of the resulting models was evaluated on the Snapdragon's 8 Gen 1 GPU that provides excellent acceleration results for the majority of common deep learning ops. The proposed solutions are compatible with all recent mobile GPUs, being able to process Full HD photos in less than 20-50 milliseconds while achieving high fidelity results. A detailed description of all models developed in this challenge is provided in this paper.
translated by 谷歌翻译
标记医学图像取决于专业知识,因此很难在短时间内以高质量获取大量注释的医学图像。因此,在小型数据集中充分利用有限标记的样品来构建高性能模型是医疗图像分类问题的关键。在本文中,我们提出了一个深入监督的层选择性注意网络(LSANET),该网络全面使用功能级和预测级监督中的标签信息。对于特征级别的监督,为了更好地融合低级功能和高级功能,我们提出了一个新颖的视觉注意模块,层选择性注意(LSA),以专注于不同层的特征选择。 LSA引入了一种权重分配方案,该方案可以在整个训练过程中动态调整每个辅助分支的加权因子,以进一步增强深入监督的学习并确保其概括。对于预测级的监督,我们采用知识协同策略,通过成对知识匹配来促进所有监督分支之间的层次信息互动。使用公共数据集MedMnist,这是用于涵盖多种医学专业的生物医学图像分类的大规模基准,我们评估了LSANET在多个主流CNN体系结构和各种视觉注意模块上评估。实验结果表明,我们所提出的方法对其相应的对应物进行了实质性改进,这表明LSANET可以为医学图像分类领域的标签有效学习提供有希望的解决方案。
translated by 谷歌翻译
人类运动转移是指合成的照片现实和时间连贯的视频,使一个人能够模仿他人的运动。但是,当前的合成视频遭受了序列帧的时间不一致,这些框架显着降低了视频质量,但远未通过像素域中的现有方法来解决。最近,由于图像合成方法的频率不足,一些有关DeepFake检测的作品试图区分频域中的自然图像和合成图像。尽管如此,从自然和合成视频之间的频域间隙方面的各个方面研究合成视频的时间不一致。在本文中,我们建议深入研究频率空间,以进行时间一致的人类运动转移。首先,我们对频域中的自然和合成视频进行了首次综合分析,以揭示单个帧的空间维度和视频的时间维度的频率差距。为了弥补自然视频和合成视频之间的频率差距,我们提出了一个新型的基于频率的人类运动转移框架,名为Fremotr,该框架可以有效地减轻空间伪像以及合成视频的时间不一致。 Fremotr探索了两个基于频率的新型正则化模块:1)频域外观正则化(FAR),以改善个人在单个帧中的外观和2)时间频率正则化(TFR),以确保相邻框架之间的时间一致性。最后,全面的实验表明,FremoTR不仅在时间一致性指标中产生卓越的性能,而且还提高了合成视频的框架级视觉质量。特别是,时间一致性指标比最新模型提高了近30%。
translated by 谷歌翻译
非平行文本样式转移是自然语言生成的重要任务。但是,先前的研究集中在令牌或句子级别上,例如句子情绪和形式转移,但在话语水平上忽略了长时间的转移。长文本通常涉及更复杂的作者语言偏好,例如话语结构,而不是句子。在本文中,我们制定了非并行故事作者风格转移的任务,该任务需要将输入故事传输到指定的作者样式的同时,同时维护源语义。为了解决这个问题,我们提出了一个名为StoryTrans的一代模型,该模型利用话语表示捕获源内容信息并将其传输到具有可学习样式嵌入的目标样式中。我们使用额外的培训目标将文学的文学特征与学习的话语表示,以防止模型退化为自动编码器。此外,为了增强内容保存,我们设计了一个面具和填充框架,以将源文本的特定于特定于样式的关键字定为生成。此外,我们分别用中文和英语构建了此任务的新数据集。广泛的实验表明,我们的模型在样式传输和内容保存的总体性能方面优于强大的基线。
translated by 谷歌翻译
面部表达是传达人类情绪状态和意图的重要因素。尽管在面部表达识别任务(FER)任务中已经取得了显着进步,但由于表达模式的巨大变化和不可避免的数据不确定性而引起的挑战仍然存在。在本文中,我们提出了中级表示增强(MRE)和嵌入图形抑制(GUS)的图表,以解决这些问题。一方面,引入MRE是为了避免表达表示学习以有限数量的高度歧视模式主导。另一方面,引入GUS以抑制表示空间中的特征歧义。所提出的方法不仅具有更强的概括能力来处理表达模式的不同变化,而且具有更强的稳健性来捕获表达表示。对AFF-WILD2的实验评估已验证了该方法的有效性。
translated by 谷歌翻译
通用形态(UNIMORPH)项目是一项合作的努力,可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力:一种无独立的特征架构,用于丰富的形态注释,并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进(自McCarthy等人(2020年)以来)。众多语言学家的合作努力增加了67种新语言,其中包括30种濒危语言。我们已经对提取管道进行了一些改进,以解决一些问题,例如缺少性别和马克龙信息。我们还修改了模式,使用了形态学现象所需的层次结构,例如多肢体协议和案例堆叠,同时添加了一些缺失的形态特征,以使模式更具包容性。鉴于上一个UniMorph版本,我们还通过16种语言的词素分割增强了数据库。最后,这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。
translated by 谷歌翻译
在过去几年中,社交媒体上传播的错误消息激增,并导致了现实世界中的多种威胁。尽管有关于特定领域的虚假新闻(例如政治或医疗保健)的研究,但比较跨领域的虚假新闻几乎没有工作。在本文中,我们调查了2009年至2019年中国最大的Twitter式社交媒体平台的微博上的九个领域的虚假新闻。新收集的数据包含44,728个帖子,由40,215个用户发布,并重新发布了。 340万次。基于多域数据集的分布和传播,我们观察到,在诸如健康和医学之类的日常生活的领域中,虚假的消息比政治等其他领域的帖子更有效,但有效地传播的帖子较少,而政治虚假新闻具有最有效的扩散能力。关于微博上广泛散布的虚假新闻帖子与某些类型的用户(按性别,年龄等。此外,这些帖子都引起了重新播放的强烈情绪,并随着False-News启动器的积极参与而进一步扩散。我们的发现有可能在可疑新闻发现,真实性预测以及显示和解释中帮助设计错误的新闻检测系统。微博上的发现与现有作品的发现表明了细微的模式,这表明需要对来自不同平台,国家或语言的数据进行更多研究,以解决全球错误新闻。代码和新的匿名数据集可在https://github.com/ictmcg/characterizing-weibo-multi-domain-false-news上找到。
translated by 谷歌翻译
Scheduled batch jobs have been widely used on the asynchronous computing platforms to execute various enterprise applications, including the scheduled notifications and the candidate pre-computation for the modern recommender systems. It is important to deliver or update the information to the users at the right time to maintain the user experience and the execution impact. However, it is challenging to provide a versatile execution time optimization solution for the user-basis scheduled jobs to satisfy various product scenarios while maintaining reasonable infrastructure resource consumption. In this paper, we describe how we apply a learning-to-rank approach plus a "best time policy" in the best time selection. In addition, we propose an ensemble learner to minimize the ranking loss by efficiently leveraging multiple streams of user activity signals in our scheduling decisions of the execution time. Especially, we observe the cannibalization cross use cases to compete the user's peak time slot and introduce a coordination system to mitigate the problem. Our optimization approach has been successfully tested with production traffic that serves billions of users per day, with statistically significant improvements in various product metrics, including the notifications and content candidate generation. To the best of our knowledge, our study represents the first ML-based multi-tenant solution of the execution time optimization problem for the scheduled jobs at a large industrial scale cross different product domains.
translated by 谷歌翻译
Systemic Lupus红斑(SLE)是一种罕见的自身免疫疾病,其特征是令人无法预测的耀斑和缓解的速度,具有不同的表现形式。狼疮性肾炎,SLE用于器官损伤和死亡率的主要疾病表现之一,是卢布斯分类标准的关键组成部分。因此,准确地鉴定电子健康记录(EHRS)中的狼疮性肾炎将使大型队列观察研究和临床试验有益于患者人口的表征对于招聘,研究设计和分析至关重要。可以通过程序代码和结构化数据来认可狼疮肾炎,例如实验室测试。然而,记录狼疮肾炎的其他关键信息,例如来自肾脏活检和先前的医学史叙事的组织学报告,需要复杂的文本处理,以从病理报告和临床笔记中挖掘信息。在这项研究中,我们开发了使用EHR数据识别鉴定狼疮肾炎的血管肾炎,而不使用自然语言处理(NLP)。我们开发了四种算法:仅使用结构化数据(基线算法)和使用不同NLP模型的三种算法的规则的算法。这三种NLP模型基于正则化逻辑回归,并使用不同的特征集,包括积极提及概念独特标识符(Cue),耐备的外观数量,以及三个部件的混合物。基线算法和最佳执行的NLP算法在Vanderbilt University Center(VUMC)的数据集上验证了外部验证。我们最佳地执行来自结构化数据,正则表达式概念和映射的特征的NLP模型,与基线狼疮性肾炎算法相比,在NMEDW(0.41 VS 0.79)和VUMC(0.62 VS 0.96)数据集中有所改善。
translated by 谷歌翻译